2023天天弄国产大片_男人的天堂v在线播放_精品久久这里_久久久无码国产精精品免费国国产欧美日本韩高清视频一区二区三区免费式_成全视频免费观看在线下载

炫科技
華為雲盤(pán)古大模型5.0技術(shù)解密:更多模態(tài),複雜推理

現(xiàn)在,AI 大模型可以真正與物理世界結(jié)合了。

該大模型體系分為 10 億級(jí)參數(shù)的 Pangu E 端側模型,百億級(jí)參數(shù)的 Pangu P,千億級(jí)的 Pangu U,以及萬(wàn)億級(jí)的 Pangu S 版本,在全系列、多模態(tài)、強(qiáng)思維三個(gè)方面實(shí)現(xiàn)了升級(jí)。

盤(pán)古大模型 5.0 可以與物理世界結(jié)合,理解包括文本、圖片、視頻、雷達(dá)、紅外、遙感等多種模態(tài)的信息。它已在高鐵故障檢測(cè)等工業(yè)領(lǐng)域、具身智能等技術(shù)探索領(lǐng)域落地,因而受到了人們的關(guān)注。

隨著鴻蒙 HarmonyOS NEXT Beta 版本的發(fā)布,小藝也升級(jí)成為智能體,面向全場(chǎng)景設(shè)備提供語音對(duì)話(huà)、圖文識別、服務(wù)建議、設(shè)備智慧能力和設(shè)備互聯(lián)管理功能。依託昇騰的算力和盤(pán)古大模型,HarmonyOS NEXT 擁有了系統(tǒng)級(jí) AI 能力。

在大會(huì)主 Keynote 環(huán)節(jié)上,諾亞方舟實(shí)驗(yàn)室主任姚駿對(duì)盤(pán)古大模型 5.0 背後的技術(shù)進(jìn)行了詳解。

在過(guò)去的一年裡,華為對(duì)盤(pán)古大模型 3.0 進(jìn)行了全面的升級(jí),如今的盤(pán)古大模型 5.0 具備了更豐富的多模態(tài)和更強(qiáng)的思維能力。基於華為雲 AI 算力平臺(tái),盤(pán)古 5.0 提高了訓(xùn)練效率。在新模型的介紹中,華為主要從數(shù)據(jù)、參數(shù)和算力三個(gè)方面介紹了大模型的訓(xùn)練過(guò)程。

數(shù)據(jù)合成

首先是數(shù)據(jù)方面的工作,在 5.0 版模型的訓(xùn)練中,工程團(tuán)隊(duì)從追求數(shù)據(jù)量和提高數(shù)據(jù)清洗質(zhì)量的數(shù)據(jù)工程,向科學(xué)使用數(shù)據(jù)的思路進(jìn)行了演進(jìn)。新的目的是提升數(shù)據(jù)的利用率,並且用更優(yōu)質(zhì)的數(shù)據(jù)來(lái)激活模型中更多的能力。

華為著重介紹了兩(liǎng)個(gè)關(guān)鍵技術(shù)。

首先是數(shù)據(jù)合成,現(xiàn)在,業(yè)界大模型訓(xùn)練數(shù)據(jù)的規(guī)模已經(jīng)從萬(wàn)億級(jí) tokens 邁入十萬(wàn)億 tokens,到達(dá)這個(gè)量級(jí)以後,業(yè)界公開(kāi)的高質(zhì)量數(shù)據(jù)的增長(zhǎng)就難以跟上模型體量增長(zhǎng)的速度了。

華為認(rèn)為在未來(lái),合成數(shù)據(jù)會(huì)在更大規(guī)模的模型訓(xùn)練中佔有一席之地,從而彌補高質(zhì)量自然數(shù)據(jù)增長(zhǎng)不足的空缺。從盤(pán)古 3.0 時(shí)代的 3T Tokens 的數(shù)據(jù),到盤(pán)古 5.0 時(shí),數(shù)據(jù)的容量已達(dá)到 10T Tokens,其中合成數(shù)據(jù)佔比超過(guò)了 30%。在其中,華為探索了優(yōu)質(zhì)的、面向高階能力的數(shù)據(jù)合成方法。簡(jiǎn)單來(lái)說(shuō),就是以弱模型輔助強(qiáng)模型的 weak2strong 方法,迭代式的合成高質(zhì)量的數(shù)據(jù),保證合成數(shù)據(jù)有不弱於真實(shí)數(shù)據(jù)的完整性、相關(guān)性和知識性。

在華為提供的能力圖中可以看到,合成數(shù)據(jù)的質(zhì)量從各個(gè)維度都略強(qiáng)於真實(shí)數(shù)據(jù)。

華為提出的 weak2strong 可以進(jìn)一步加強(qiáng)合成數(shù)據(jù)中特定的數(shù)據(jù),例如自然數(shù)據(jù)中偏少的長(zhǎng)序列、複雜知識推理等的數(shù)據(jù),進(jìn)一步通過(guò)這些數(shù)據(jù)來(lái)加強(qiáng)模型的特定能力。在訓(xùn)練的過(guò)程中,華為使用了大量合成的長(zhǎng)序列數(shù)據(jù),提高了模型在大海撈針長(zhǎng)序列測(cè)試中的表現(xiàn)約 20%。

華為也展示了數(shù)據(jù)方面的課程學(xué)習(xí),利用相對(duì)較小的模型對(duì)不同數(shù)據(jù)進(jìn)行快速的 AI 評(píng)估,區(qū)分不同數(shù)據(jù)類(lèi)別在學(xué)習(xí)過(guò)程中的難易程度。進(jìn)一步根據(jù)階梯式課程學(xué)習(xí)的原理,先讓大模型學(xué)習(xí)相對(duì)來(lái)說(shuō)基礎(chǔ)的課程,再逐漸的加大高難數(shù)據(jù)的比例,模型能以更加類(lèi)人的方式從易到難地學(xué)習(xí)知識,實(shí)現(xiàn)更加可控、可預期的能力湧現(xiàn)。

模型架構(gòu)升級(jí)

在盤(pán)古 5.0 中,模型架構(gòu)也獲得了升級(jí),華為提出了昇騰親和的 Transformer 架構(gòu) - 創(chuàng)新的 π 新架構(gòu)。

如下圖左所示,原始的 Transformer 架構(gòu)和其它的深度模型一樣,也存在一定的特徵坍塌問(wèn)題。華為研究人員通過(guò)理論分析發(fā)現(xiàn),Transformer 中的自注意力模塊(即 Attention 模塊)會(huì)進(jìn)一步激化數(shù)據(jù)的特徵消失。

利用計(jì)算視覺和 Transformer 結(jié)合的例子來(lái)演示這個(gè)特徵問(wèn)題,左邊是一張鯊魚的圖,如果我們用原始的 transformer 架構(gòu)來(lái)處理,模型一深就會(huì)帶來(lái)特徵的完全坍塌,基本無(wú)法還原輸(shū)入圖像,看起來(lái)就是中間黑乎乎的一塊。業(yè)界因此為原始的 Transformer 增加一條殘差連接,這樣就能略微的緩解特徵坍塌問(wèn)題,右邊的圖中可以模糊地看到還原圖像中有一點(diǎn)鯊魚的影子,但是這個(gè)鯊魚的特徵整體仍然不太明顯。

在新的盤(pán)古 π 架構(gòu)中,華為諾亞、北京大學(xué)等研究人員進(jìn)一步提出了增廣(guǎng)殘差連接的方法。通過(guò)引入非線(xiàn)性的額外殘差,更進(jìn)一步的加大來(lái)自不同 Token 的特徵,使數(shù)據(jù)的特徵的多樣性得以在深度的 Transformer 中得到維持,進(jìn)而大幅提升模型的精度。(論文連結(jié):http://dx.doi.org/10.13140/RG.2.2.34314.64966)

PanGu-π 的工作,已經(jīng)被國(guó)際機(jī)器學(xué)習(xí)頂會(huì) NeurIPS 2023 錄用。

在上圖下方的圖實(shí)驗(yàn)結(jié)果中,還原的鯊魚圖像效果更好了,可知模型對(duì)數(shù)據(jù)的表徵和學(xué)習(xí)能力得到了大幅的加強(qiáng)。

另一方面,Transformer 包含 2 個(gè)關(guān)鍵模塊,FFN 和自注意力模塊。在 新的π架構(gòu)中,華為改造了模型中 FFN 模塊中的激活函數(shù),用一種新的級(jí)數(shù)激活函數(shù)的方式來(lái)代替。這種新的方式增加了模型的非線(xiàn)性度,增加了 FFN 的計(jì)算量,但是也可以幫助我們在精度不變的情況下減少自注意力模塊的大小。經(jīng)過(guò)此種優(yōu)化,大模型在昇騰晶片上推理速度也由此提升了20- 25%。

大集群訓(xùn)練

華為進(jìn)一步介紹了通過(guò)大集群訓(xùn)練盤(pán)古 5.0 的情況。

從千卡集群到大集群,主要挑戰來(lái)自兩(liǎng)方面:首先,訓(xùn)練千億、萬(wàn)億模型需要同時(shí)進(jìn)行數(shù)據(jù)並行、模型並行和流水線(xiàn)並行,期間計(jì)算單元在流水線(xiàn)並行的等待時(shí)間稱(chēng)為 Bubble。千卡集群的 bubble 通常在 10% 左右,而大集群的 Bubble 就到了 30,大大影響了集群算力利用率。另外,大集群中,並行通信在集群間會(huì)有大量的路由衝突要解決,導(dǎo)致集群利用率線(xiàn)性度只有 80% 左右。

為了解決這個(gè)問(wèn)題,技術(shù)人員首先將大塊計(jì)算和通信按照數(shù)學(xué)上的等價(jià),切分成多個(gè)小塊計(jì)算和通信副本。系統(tǒng)會(huì)編排多個(gè)副本間計(jì)算通信的執(zhí)行順序,小塊的計(jì)算和通信更容易被隱藏在計(jì)算中。在這其中,編排上還有 NP 難問(wèn)題的自動(dòng)尋優(yōu)優(yōu)化、正反向流水交織等關(guān)鍵技術(shù)。此外,華為還優(yōu)化了大集群調(diào)度與通信,通過(guò) rank table 編排算法,將大流量放到節(jié)點(diǎn)內(nèi)或同一機(jī)櫃級(jí)路由器下,避免跨路由器衝突,同時(shí)對(duì)源埠進(jìn)行動(dòng)態(tài)編排,實(shí)現(xiàn)集群通信路徑完全零衝突。

基於以上方法,華為可以有效隱藏 70% 以上的通信,bubble 從 30% 降低到 10%,有效實(shí)現(xiàn)了大集群的近線(xiàn)性加速比。整體上,集群的訓(xùn)練 MFU(模型計(jì)算算力利用率)相比 256 卡的 60%,大上只降低了 10%,可以達(dá)到 50% 左右,這些優(yōu)化大幅提升了訓(xùn)練效率。

姚駿表示,這些自動(dòng)並行方案已集成到了華為 AI 框架中,成為了訓(xùn)練全棧解決方案的一部分。

盤(pán)古大模型 5.0 的能力提升

盤(pán)古 5.0 擴展了多模態(tài)能力。

一直以來(lái),多個(gè)模態(tài)的高效對(duì)齊是訓(xùn)練多模態(tài)大模型的一大挑戰。其中,視覺編碼器是多模態(tài)大模型處理輸(shū)入的第一步,用於將不同類(lèi)別、大小的圖像輸(shū)入到同一個(gè)表徵空間,相當(dāng)於語言模型的 Tokenizer 。因為領(lǐng)域的不同,傳統(tǒng)處理圖像,視頻,文本和圖表時(shí),需要用各自的獨(dú)立的編碼器各自接入多模態(tài)大模型,這造成了模型容量浪費(fèi)和計(jì)算冗餘。

華為提出統(tǒng)一視覺編碼,將不同的編碼器能力蒸餾到一個(gè)統(tǒng)一視覺編碼器中,可以大大提升編碼效率。和同參數(shù)量業(yè)界 SOTA 模型相比,由於利用了不同領(lǐng)域之間內(nèi)的共通知識,新的編碼器在自然圖像能力基本持平,文檔理解能力上有顯著提升。這種方案現(xiàn)在也成為了業(yè)界的主流編碼範式。

盤(pán)古 5.0 在介紹多模態(tài)能力時(shí)重點(diǎn)展示了兩(liǎng)個(gè)關(guān)鍵技術(shù)。第一個(gè)是統(tǒng)一的視覺編碼器,它改變了以前業(yè)界在視覺的多個(gè)領(lǐng)域,如 OCR、自然圖像、視頻、文本等,都有不同的獨(dú)立編碼方案的困境。把這些編碼器都蒸餾到一個(gè)視覺編碼器,現(xiàn)在已經(jīng)成為了業(yè)界主流的編解碼方案,也提升了模型的表徵能力和精度。

另一個(gè)關(guān)鍵技術(shù)是動(dòng)態(tài)解析度。人看世界是有不同解析度的,但是一個(gè) AI 模型的輸(shū)入一般是固定的,很難兼顧。華為提出尺度泛化的訓(xùn)練範式,如下圖右邊部分所示。首先,使用低解析度圖片和簡(jiǎn)單任務(wù)訓(xùn)練基礎(chǔ)感知能力,然後使用中高解析度訓(xùn)練 OCR 和圖表理解等細(xì)粒度感知能力,第三階段擴展到更高的解析度和更多的任務(wù)類(lèi)型,最後重點(diǎn)突破模型的高階推理能力。

這也是一種數(shù)據(jù)課程學(xué)習(xí)的方式,從易到難學(xué)習(xí)多模態(tài)的信息。這種方式動(dòng)態(tài)的遞增的方式幫助盤(pán)古 5.0 在動(dòng)態(tài)解析度的表徵上超過(guò)了業(yè)界同等模型的能力,並有效的提升了新模型在下遊多模態(tài)任務(wù)的能力,實(shí)現(xiàn)了 50% 的提升。

盤(pán)古大模型的另一個(gè)關(guān)鍵能力提升在於強(qiáng)思維,即複雜推理能力。

當(dāng)前,在單步任務(wù)和文本記憶類(lèi)任務(wù),例如知識問(wèn)答和考試上,大模型已經(jīng)展現(xiàn)出超過(guò)人類(lèi)的卓越表現(xiàn)。而在多步推理和複雜任務(wù)的處理上,AI 還沒有達(dá)到人類(lèi)的平均水平,這一方面涉及到的任務(wù)包括代碼生成、數(shù)學(xué)運(yùn)算、邏輯推理等。這體現(xiàn)了人類(lèi)在知識的抽象和推理上的能力難以替代。

在華為的研究過(guò)程中,前一種能力被稱(chēng)作記憶型能力,適合於大模型用一步的快速思考進(jìn)行回答。後一種複雜推理,人類(lèi)處理時(shí)一般也需要步步推導(dǎo),跳過(guò)中間過(guò)程的快速回答不適用於這種問(wèn)題,所以大模型也需要像人一樣,在這類(lèi)問(wèn)題上把快思考變成慢思考,一步一步分解和完成對(duì)複雜問(wèn)題的處理。

從這點(diǎn)出發(fā),華為提出了基於多步生成和策略搜索的 MindStar 方法。首先把複雜推理任務(wù)分解成多個(gè)子問(wèn)題,每個(gè)子問(wèn)題都會(huì)生成多個(gè)候選方案,通過(guò)搜索和過(guò)程反饋的獎(jiǎng)勵模型,來(lái)選擇最優(yōu)多步回答的路徑。這樣既兼顧了人類(lèi)一步一步思考的形式,也兼顧了機(jī)器更擅長(zhǎng)的策略搜索的形式。

在華為自建的難例評(píng)測(cè)集中,MindStar 方法使模型的平均能力提升了 30 分,使用了 MindStar 的百億模型達(dá)到業(yè)界主流千億模型的推理能力,這相當(dāng)於使用慢思考能帶來(lái) 10 倍以上的參數(shù)量的加成。

把 MindStar 這類(lèi)強(qiáng)思維方法運(yùn)用到更大尺度的模型上,AI 或許就能逐步在複雜推理上實(shí)現(xiàn)接近人類(lèi),甚至超越人的能力。

  • 本期雜誌

  • 往期推薦